AI资讯新闻榜单内容搜索- DeepSeek-

X上63万人围观的Traning-Free GRPO：把GRPO搬进上下文空间学习

年初的 DeepSeek-R1，带来了大模型强化学习（RL）的火爆。无论是数学推理、工具调用，还是多智能体协作，GRPO（Group Relative Policy Optimization）都成了最常见的 RL 算法。

来自主题: AI技术研报

8114 点击 2025-10-23 11:41

DeepSeek 再开源：发布 3B MoE OCR 模型，视觉压缩高达20倍

刚刚，DeepSeek 推出了全新的视觉文本压缩模型 DeepSeek-OCR。该模型最大的突破在于极高的压缩效率： 20 个节点每天可处理 3300 万页数据，硬件要求仅为 A100-40G。

来自主题: AI资讯

13092 点击 2025-10-20 16:30

节前重磅：开源旗舰模型新SOTA，智谱GLM-4.6问世

昨天，深度求索刚刚开源 DeepSeek-V3.2-Exp。今天，另一国产大模型之光智谱 AI 也正式发布了旗下新一代旗舰模型 GLM-4.6，刚好撞车 Claude Sonnet 4.5。但有一点不同，智谱的 GLM-4.6 会继续开源，它即将上线 Hugging Face、ModelScope 等平台，遵循 MIT 协议。

来自主题: AI资讯

10906 点击 2025-10-01 11:46

DeepSeek、GPT-5都在尝试的快慢思考切换，有了更智能版本，还是多模态

当前，业界顶尖的大模型正竞相挑战“过度思考”的难题，即无论问题简单与否，它们都采用 “always-on thinking” 的详细推理模式。无论是像 DeepSeek-V3.1 这种依赖混合推理架构提供需用户“手动”介入的快慢思考切换，还是如 GPT-5 那样通过依赖庞大而高成本的“专家路由”机制提供的自适应思考切换。

来自主题: AI技术研报

8328 点击 2025-09-02 12:27

冗长响应缩减80%，DeepSeek GRPO获得颠覆性改进，微软GFPO问世

用过 DeepSeek-R1 等推理模型的人，大概都遇到过这种情况：一个稍微棘手的问题，模型像陷入沉思一样长篇大论地推下去，耗时耗算力，结果却未必靠谱。现在，我们或许有了解决方案。

来自主题: AI技术研报

7965 点击 2025-08-15 11:26

硬核拆解大模型，从 DeepSeek-V3 到 Kimi K2 ，一文看懂 LLM 主流架构

自首次提出 GPT 架构以来，转眼已经过去了七年。如果从 2019 年的 GPT-2 出发，回顾至 2024–2025 年的 DeepSeek-V3 和 LLaMA 4，不难发现一个有趣的现象：尽管模型能力不断提升，但其整体架构在这七年中保持了高度一致。

来自主题: AI技术研报

10081 点击 2025-08-08 11:52

SPIRAL：零和游戏自对弈成为语言模型推理训练的「免费午餐」

近年来，OpenAI o1 和 DeepSeek-R1 等模型的成功证明了强化学习能够显著提升语言模型的推理能力。通过基于结果的奖励机制，强化学习使模型能够发展出可泛化的推理策略，在复杂问题上取得了监督微调难以企及的进展。

来自主题: AI技术研报

7281 点击 2025-07-31 10:10

面对无解问题大模型竟会崩溃？港中文&华为联合提出首个大模型推理可靠性评估基准

今年初以 DeepSeek-r1 为代表的大模型在推理任务上展现强大的性能，引起广泛的热度。然而在面对一些无法回答或本身无解的问题时，这些模型竟试图去虚构不存在的信息去推理解答，生成了大量的事实错误、无意义思考过程和虚构答案，也被称为模型「幻觉」问题，如下图（a）所示，造成严重资源浪费且会误导用户，严重损害了模型的可靠性（Reliability）。

来自主题: AI技术研报

9580 点击 2025-07-17 11:24

为什么 DeepSeek 大规模部署很便宜，本地很贵

为什么 DeepSeek-V3 据说在大规模服务时快速且便宜，但本地运行时却太慢且昂贵？为什么有些 AI 模型响应很慢，但一旦开始运行就变得很快？

来自主题: AI技术研报

10224 点击 2025-07-08 11:14

对谈 DeepSeek-Prover 核心作者辛华剑：Multi Agent 天然适合形式化数学｜Best Minds

Era of Experience 这篇文章中提到：如果要实现 AGI，构建能完成复杂任务的通用 agent，必须借助“经验”这一媒介，这里的“经验”就是指强化学习过程中模型和 agent 积累的、人类数据集中不存在的高质量数据。

来自主题: AI资讯

9270 点击 2025-06-14 12:58

AI资讯新闻榜单内容搜索- DeepSeek-

X上63万人围观的Traning-Free GRPO：把GRPO搬进上下文空间学习

DeepSeek 再开源：发布 3B MoE OCR 模型，视觉压缩高达20倍

节前重磅：开源旗舰模型新SOTA，智谱GLM-4.6问世

DeepSeek、GPT-5都在尝试的快慢思考切换，有了更智能版本，还是多模态

冗长响应缩减80%，DeepSeek GRPO获得颠覆性改进，微软GFPO问世

硬核拆解大模型，从 DeepSeek-V3 到 Kimi K2 ，一文看懂 LLM 主流架构

SPIRAL：零和游戏自对弈成为语言模型推理训练的「免费午餐」

面对无解问题大模型竟会崩溃？港中文&华为联合提出首个大模型推理可靠性评估基准

为什么 DeepSeek 大规模部署很便宜，本地很贵

对谈 DeepSeek-Prover 核心作者辛华剑：Multi Agent 天然适合形式化数学 ｜Best Minds

对谈 DeepSeek-Prover 核心作者辛华剑：Multi Agent 天然适合形式化数学｜Best Minds